TRACE: Marco de asignación de rollout para RL agente eficiente
Descubre cómo TRACE asigna presupuesto de rollout a nodos prometedores en RL agente multi-turno, mejorando contraste de recompensas y rendimiento.
Descubre cómo TRACE asigna presupuesto de rollout a nodos prometedores en RL agente multi-turno, mejorando contraste de recompensas y rendimiento.
WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.